Milan Diebel, Sr Product Line Manager NVIDIA
Varun Nanda Kumar, Sr Product Manager NVIDIA
上图展示了 NVIDIA 从底层芯片到顶层 AI 应用框架的完整生态系统。
- 芯片 (Chips): GPU, CPU, DPU。
- 从云到边缘的机器人系统 (Cloud-to-Edge Datacenter-to-Robotic Systems): 包括 RTX, DGX, HGX, EGX, OVX, SuperPOD, AGX 等系统。
- 加速库 (Acceleration Libraries): 提供一系列优化的软件库,如 RAPIDS, Spark, cuDNN, TensorRT, Triton 等。
- 平台 (Platforms): 建立在库之上的三大平台:NVIDIA HPC, NVIDIA AI, NVIDIA OMNIVERSE。
- AI 应用框架 (AI Application Frameworks): 针对特定领域的框架,如 MONAI, MAXINE, NEMO, MERLIN, MORPHEUS, METROPOLIS, HOLOSCAN 等。
该平台提供了灵活的 GPU 利用方式,从分区技术到多 GPU 解决方案。
- 数据中心产品组合: 核心产品包括 NVIDIA H100, L4, L40。
- 分区技术 (Partitioning Technologies):
- MIG (Multi-Instance GPU): 可将单个 GPU 划分为多个独立的实例(仅适用于 A100, H100, A30)。
- 使用 vGPU 进行虚拟化 (Virtualization with vGPU): 支持 GPU 虚拟化。
- 使用 CUDA MPS 的多进程 (Multi-Process with CUDA MPS): 允许多个 CUDA 进程共享单个 GPU。
本页展示了使用 NVIDIA RTX 的专业可视化用例。
本节将介绍 Ada Lovelace 架构。
Ada Lovelace 架构通过新设计、高级功能和通用性为各类应用带来价值。
- 新架构 (New Architecture):
- 新的流式多处理器 (New Streaming Multiprocessor)
- 第四代 Tensor Cores
- 第三代 RT Cores
高级功能 (Advanced Features):
通用 GPU (Universal GPU):
GTC2023 推出了两款基于 Ada Lovelace 架构的新产品:NVIDIA L4 和 L40。
NVIDIA L4 24GB:
NVIDIA L40 48GB:
该图表对比了 L40 与 A40 在最高性能 RTX 虚拟工作站场景下的相对性能。
该图表对比了 L40 与 A40 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.6 倍。
- DL Inference: 性能最高提升至 1.5 倍。
- Video Streams: 性能最高提升至 3.7 倍。
该图表对比了 L4 与 T4 在 Omniverse、云游戏和虚拟工作站场景下的相对性能。
- Omniverse (1080p): 性能最高提升至 4.0 倍。
- Cloud Gaming: 性能最高提升至 2.8 倍。
- SPECviewperf 2020: 性能最高提升至 1.7 倍。
该图表对比了 L4 与 T4 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.4 倍。
- DL Inference (BERT Large <10ms Latency): 性能最高提升至 2.4 倍。
- Encode/Decode: 性能最高提升至 2.7 倍。
此图展示了通过虚拟 GPU (vGPU) 提高利用率的情况。图表显示,在单个 L40 GPU 上通过 vGPU 划分出多个虚拟机 (VM) 时,所有 VM 的性能总和可以超过单个 VM 满负荷运行时的性能(即超过 100%),这表明 GPU 资源得到了更充分的利用。例如,使用 L40-12Q 配置文件(每个 VM 12GB 显存)运行 4 个 VM 时,总性能达到了 131%。
本页分析了如何通过部署新的 L4 和 L40 GPU 来提高数据中心效率,用更少的基础设施完成更多工作。
- 入门级虚拟工作站:
- 使用 L4 替代 T4,每美元性能提升 40%,每用户成本降低 27%。
中端虚拟工作站:
高端虚拟工作站:
该页面对比了 NVIDIA L4 和 NVIDIA L40 在四种不同工作负载场景下的适用性:
Omniverse 与渲染 (Omniverse & Rendering):
深度学习推理与视频 (DL Inference & Video):
高性能计算 (HPC):
云游戏 (Cloud Gaming):
要全面理解数据中心的效率,需要从三个层面进行评估,从而发现节省成本的机会:
GPU 层面 (基础):
服务器层面 (更好):
数据中心层面 (最佳):
通过采用 GPU,数据中心可以实现巨大的总拥有成本 (TCO) 节省和能源足迹的减少。以一个 2MW 数据中心的人工智能视频服务为例:
CPU 服务器方案 (双路 Xeon 8362):
L4 服务器方案 (每台服务器 8x L4):
对比结果:
注:测量性能基于 CV-CUDA 端到端视频流水线,包括预处理、解码、推理(Seqformer)、编码、后处理。NVIDIA L4 (TensorRT 8.6) 对比 CPU (Platinum 8362, OpenCV 4.7, PyT inference)。系统配置请参考图片底部详细说明。
本节将介绍 NVIDIA L4 和 L40 的可用性情况。
Google Cloud Platform (GCP) 现已提供搭载 NVIDIA L4 GPU 的实例。下表列出了 g2-standard 实例类型的详细配置:
| Instance | GPU count | GPU Memory (GB) | vCPU | Default Memory (GB) | Custom Memory range* (GB) | Network BW (Gbps) | [Optional] Local SSD (GB) |
|---|---|---|---|---|---|---|---|
| g2-standard-4 | 1 | 24 | 4 | 16 | 16-32 | 10 | 375 |
| g2-standard-8 | 1 | 24 | 8 | 32 | 32-54 | 16 | 375 |
| g2-standard-12 | 1 | 24 | 12 | 48 | 48-54 | 16 | 375 |
| g2-standard-16 | 1 | 24 | 16 | 64 | 54-64 | 32 | 375 |
| g2-standard-24 | 2 | 48 | 24 | 96 | 96-108 | 32 | 750 |
| g2-standard-32 | 1 | 24 | 32 | 128 | 96-128 | 32 | 375 |
| g2-standard-48 | 4 | 96 | 48 | 192 | 196-216 | 50 | 1,500 |
| g2-standard-96 | 8 | 192 | 96 | 384 | 384-432 | 100 | 3,000 |
可用区域: us-central1 (Iowa), asia-southeast1 (Singapore), europe-west4 (Netherlands)。
各大主流云服务提供商均提供了丰富的 NVIDIA GPU 实例来加速不同类型的工作负载。
工作负载类型:
云平台 GPU 选项 (部分列举):
NVIDIA L4 在 Google Cloud 上被特别标注,是本次介绍的重点。
来自 20 多家合作伙伴的 120 款系统现已支持 NVIDIA L4 和 L40 GPU。
主要 OEM 合作伙伴及其支持的服务器型号包括:
Dell Technologies:
Hewlett Packard Enterprise:
Lenovo:
其他合作伙伴:
通过优化 GPU 利用率来提高数据中心效率,核心要点如下:
特色演讲 (FEATURED TALKS)
在金融应用中使用 NVIDIA GPU:不仅仅是机器学习应用 [SS2211]
通过 GPU 加速的 VDI 按需优化“无限学习” [S51353]
通过优化 GPU 利用率提高数据中心效率 [S51297]
在虚拟化环境中使用 GPU 调整机器学习和 HPC 工作负载性能 [S51670]
如何在企业中交付高保真虚拟世界 [S51510]